Out-of-Distribution (OOD) detection, i.e., identifying whether an input is sampled from a novel distribution other than the training distribution, is a critical task for safely deploying machine learning systems in the open world. Recently, post hoc detection utilizing pre-trained models has shown promising performance and can be scaled to large-scale problems. This advance raises a natural question: Can we leverage the diversity of multiple pre-trained models to improve the performance of post hoc detection methods? In this work, we propose a detection enhancement method by ensembling multiple detection decisions derived from a zoo of pre-trained models. Our approach uses the p-value instead of the commonly used hard threshold and leverages a fundamental framework of multiple hypothesis testing to control the true positive rate of In-Distribution (ID) data. We focus on the usage of model zoos and provide systematic empirical comparisons with current state-of-the-art methods on various OOD detection benchmarks. The proposed ensemble scheme shows consistent improvement compared to single-model detectors and significantly outperforms the current competitive methods. Our method substantially improves the relative performance by 65.40% and 26.96% on the CIFAR10 and ImageNet benchmarks.
translated by 谷歌翻译
Recently, unsupervised domain adaptation in satellite pose estimation has gained increasing attention, aiming at alleviating the annotation cost for training deep models. To this end, we propose a self-training framework based on the domain-agnostic geometrical constraints. Specifically, we train a neural network to predict the 2D keypoints of a satellite and then use PnP to estimate the pose. The poses of target samples are regarded as latent variables to formulate the task as a minimization problem. Furthermore, we leverage fine-grained segmentation to tackle the information loss issue caused by abstracting the satellite as sparse keypoints. Finally, we iteratively solve the minimization problem in two steps: pseudo-label generation and network training. Experimental results show that our method adapts well to the target domain. Moreover, our method won the 1st place on the sunlamp task of the second international Satellite Pose Estimation Competition.
translated by 谷歌翻译
零击学习是一种学习制度,通过概括从可见类中学到的视觉语义关系来识别看不见的课程。为了获得有效的ZSL模型,可以诉诸于来自多个来源的培训样本,这可能不可避免地提高了有关不同组织之间数据共享的隐私问题。在本文中,我们提出了一个新颖的联合零摄影学习FedZSL框架,该框架从位于边缘设备上的分散数据中学习了一个中心模型。为了更好地概括为以前看不见的类,FEDZSL允许从非重叠类采样的每个设备上的训练数据,这些数据远非I.I.D.传统的联邦学习通常假设。我们在FEDZSL协议中确定了两个关键挑战:1)受过训练的模型容易偏向于本地观察到的类,因此未能推广到其他设备上的看不见的类和/或所见类别; 2)由于培训数据中的每个类别都来自单个来源,因此中心模型非常容易受到模型置换(后门)攻击的影响。为了解决这些问题,我们提出了三个局部目标,以通过关系蒸馏来进行视觉声音对齐和跨设备对齐,这利用了归一化的类协方差,以使跨设备的预测逻辑的一致性正常。为了防止后门攻击,提出了一种功能级防御技术。由于恶意样本与给定的语义属性的相关性较小,因此将丢弃低大小的视觉特征以稳定模型更新。 FedZSL的有效性和鲁棒性通过在三个零击基准数据集上进行的广泛实验证明。
translated by 谷歌翻译
广义的零射击学习(GZSL)旨在通过将语义知识从看见的类别转移到看不见的阶级来识别所见类和看不见的类别的图像。这是一个有希望的解决方案,可以利用生成模型的优势,以根据从所见类中学到的知识来幻觉现实的看不见的样本。但是,由于产生的变化,大多数现有方法的合成样本可能从看不见的数据的实际分布中偏离。为了解决这个问题,我们提出了一个基于流动的生成框架,该框架由多种条件仿射耦合层组成,用于学习看不见的数据生成。具体而言,我们发现并解决了触发产生转移的三个潜在问题,即语义不一致,方差崩溃和结构障碍。首先,为了增强生成样品中语义信息的反射,我们将语义信息明确嵌入到每个条件仿射耦合层中的转换中。其次,为了恢复真正看不见的特征的固有差异,我们引入了一种边界样本挖掘策略,具有熵最大化,以发现语义原型的更困难的视觉变体,并在此调整分类器的决策边界。第三,提出了一种相对定位策略来修改属性嵌入,引导它们充分保留类间的几何结构,并进一步避免语义空间中的结构障碍。四个GZSL基准数据集的广泛实验结果表明,GSMFlow在GZSL上实现了最先进的性能。
translated by 谷歌翻译
可变形图像注册在医学图像分析的各种任务中起着至关重要的作用。从常规能源优化或深层网络中得出的成功的注册算法需要从计算机专家那里进行巨大努力来井设计注册能源,或者仔细调整特定类型的医疗数据类型的网络架构。为了解决上述问题,本文提出了一种自动学习注册算法(Autoreg),该算法(Autoreg)合作优化了建筑及其相应的培训目标,使非计算机专家,例如医疗/临床用户,以方便地查找现有的注册各种情况的算法。具体而言,我们建立了一个三级框架,以自动搜索机制和合作优化来推导注册网络体系结构和目标。我们对多站点卷数据集和各种注册任务进行图像注册实验。广泛的结果表明,我们的自动化可能会自动学习给定量的最佳深度注册网络并实现最先进的性能,也比主流UNET体系结构显着提高了计算效率(从0.558到0.558至0.270秒,对于3D图像对相同的配置)。
translated by 谷歌翻译
在部署非视线(NLOS)成像系统中,越来越兴趣,以恢复障碍物背后的物体。现有解决方案通常在扫描隐藏对象之前预先校准系统。在封堵器,对象和扫描模式的现场调整需要重新校准。我们提出了一种在线校准技术,直接将所获取的瞬态扫描到LOS和隐藏组件中的所获取的瞬态耦合。我们使用前者直接(RE)在场景/障碍配置,扫描区域和扫描模式的变化时校准系统,而后者通过空间,频率或基于学习的技术恢复后者。我们的技术避免使用辅助校准设备,例如镜子或棋盘,并支持实验室验证和现实世界部署。
translated by 谷歌翻译
我们提出了一种新的基于网格的学习方法(N-Cloth),适用于合理的3D布变形预测。我们的方法是通用的,可以处理具有任意拓扑的三角网格表示的布料或障碍物。我们使用Graph卷积将布料和对象网格转换为潜在空间以减少网格空间中的非线性。我们的网络可以基于初始布网格模板和目标障碍物网的状态来预测目标3D布网格变形。我们的方法可以处理复杂的布料网格,最高可达100美元的k三角形和场景,具有与SMPL人,非SMPL人或刚体相对应的各种对象。在实践中,我们的方法展示了连续输入框架之间的良好时间相干性,并且可用于在NVIDIA GeForce RTX 3090 GPU上以30-45美元的$ 30-45 $ FPS产生合理的布料模拟。我们突出了以前基于学习的方法和基于物理的布料模拟器的好处。
translated by 谷歌翻译
深度学习在加速磁共振成像(MRI)中表现出惊人的性能。最先进的深度学习重建采用强大的卷积神经网络,并且由于许多磁共振图像或其对应的k空间是2D的许多磁共振图像或其对应的k空间。在这项工作中,我们展示了一种探讨了1D卷积的新方法,使得深度网络更容易受到培训和广义。我们进一步将1D卷积集成到所提出的深网络中,命名为一维深度低级和稀疏网络(ODL),它展开了低级和稀疏重建模型的迭代过程。在体内膝盖和脑数据集中的广泛结果表明,所提出的ODLS非常适合培训受试者的情况,并提供比视觉和定量的最先进的方法改进的重建性能。此外,ODL还向不同的欠采样场景显示出良好的稳健性以及培训和测试数据之间的一些不匹配。总之,我们的工作表明,在快速MRI中,1D深度学习方案是内存高效且强大的。
translated by 谷歌翻译
公共数据集是商业AI软件的关键驱动程序之一。使用公共可用数据集(特别是商业目的)由DataSet许可证管理。这些数据集许可证概述权利人有权获得给定数据集的权利以及必须履行必须履行诸如违反许可违规行为的权利的义务。但是,与标准化开源软件(OSS)许可不同,现有数据集许可证以临时方式定义,并不明确概述与其使用相关的权利和义务。这使得检查潜在的许可合规性违规。此外,公共数据集可以托管在多个位置,并从多个数据源创建,每个数据源可以具有不同的许可。因此,不能使用现有的检查OSS许可合规性的方法。在本文中,如果要用于建立商业AI软件,则提出了一种新的方法来评估潜在的许可合规性违规行为,如果要用于建立商业AI软件。我们在Huawei的两个产品组上进行了方法,常用的公共数据集进行了试验。我们的研究结果表明,如果它们用于商业目的,这6个学习的数据集中有5个违规风险。因此,我们为AI工程师提供了如何更好地评估公开可用数据集以获得许可合规性违规的建议。
translated by 谷歌翻译
We consider the problem of estimating a multivariate function $f_0$ of bounded variation (BV), from noisy observations $y_i = f_0(x_i) + z_i$ made at random design points $x_i \in \mathbb{R}^d$, $i=1,\ldots,n$. We study an estimator that forms the Voronoi diagram of the design points, and then solves an optimization problem that regularizes according to a certain discrete notion of total variation (TV): the sum of weighted absolute differences of parameters $\theta_i,\theta_j$ (which estimate the function values $f_0(x_i),f_0(x_j)$) at all neighboring cells $i,j$ in the Voronoi diagram. This is seen to be equivalent to a variational optimization problem that regularizes according to the usual continuum (measure-theoretic) notion of TV, once we restrict the domain to functions that are piecewise constant over the Voronoi diagram. The regression estimator under consideration hence performs (shrunken) local averaging over adaptively formed unions of Voronoi cells, and we refer to it as the Voronoigram, following the ideas in Koenker (2005), and drawing inspiration from Tukey's regressogram (Tukey, 1961). Our contributions in this paper span both the conceptual and theoretical frontiers: we discuss some of the unique properties of the Voronoigram in comparison to TV-regularized estimators that use other graph-based discretizations; we derive the asymptotic limit of the Voronoi TV functional; and we prove that the Voronoigram is minimax rate optimal (up to log factors) for estimating BV functions that are essentially bounded.
translated by 谷歌翻译